热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

7PapersRadios|推理速度比StableDiffusion快2倍;视觉Transformer统一图像文本

2023点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院计算机视觉研究院专栏作者:Edison_G本周论文包括MIT造出薄如纸的太阳能电池板;推理速

2023

点击蓝字 关注我们

关注并星标

从此不迷路

计算机视觉研究院

6a1fa1cdff71b27b298041c844b8d3bb.gif

1f272bd56c99b25d74200c95e81c79a9.gif

计算机视觉研究院专栏

作者:Edison_G

本周论文包括 MIT 造出薄如纸的太阳能电池板;推理速度比 Stable Diffusion 快 2 倍的 Muse 模型等研究。

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

目录:

  1. One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations 

  2. Printed Organic Photovoltaic Modules on Transferable Ultra-thin Substrates as Additive Power Sources

  3. A Survey of Deep Learning for Mathematical Reasoning 

  4. Muse: Text-To-Image Generation via Masked Generative Transformers 

  5. Positive-Incentive Noise

  6. ABPN: Adaptive Blend Pyramid Network for Real-Time Local Retouching of Ultra High-Resolution Photo 

  7.  Image-and-Language Understanding from Pixels Only 

  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations

  • 作者:Yiming Zhu 、 Hongyu Liu 等

  • 论文地址:https://arxiv.org/pdf/2210.07883.pdf

摘要:本文首先利用已有的编码器将需要编辑的图像转换到 StyleGAN 的 W^+ 语义空间中的潜在编码 w,再通过提出的语义调制模块对该隐编码进行自适应的调制。该语义调制模块包括语义对齐和语义注入模块,首先通过注意力机制对齐文本编码和 GAN 的隐编码之间的语义,再将文本信息注入到对齐后的隐编码中,从而保证该隐编码拥有文本信息从而达到利用文本编辑图像能力。

不同于经典的 StyleCLIP 模型,我们的模型无需对每个文本单独训练一个模型,一个模型就可以响应多个文本从而对图像做有效的编辑,所以我们的模型成为 FFCLIP-Free Form Text-Driven Image Manipulation。同时我们的模型在经典的教堂,人脸以及汽车数据集上都取得了非常不错的效果。

ea9299d83c972ecb82f482e2a03d58a4.png

图 1:整体框架图

推荐:文本图片编辑新范式,单个模型实现多文本引导图像编辑。

论文 2:Printed Organic Photovoltaic Modules on Transferable Ultra-thin Substrates as Additive Power Sources

  • 作者:Mayuran Saravanapavanantham、Jeremiah Mwaura 等

  • 论文地址:https://onlinelibrary.wiley.com/doi/10.1002/smtd.202200940

摘要:麻省理工学院的研究人员已经开发出一种可扩展的制造技术,可以生产超薄、轻质的太阳能电池,这种电池可以铺设在任何表面上。

MIT 的研究人员制造出了比人类头发还薄的太阳能电池板,该电池板每公斤提供的能量是目前玻璃和硅基太阳能电池板的 18 倍。这些太阳能电池板的重量只有传统光电电池的百分之一。

这种超薄太阳能板也可以安装到船帆、无人机机翼和帐篷上。它们在偏远地区和救灾行动中尤其有用。

6c1e077a7e081e7dda4d9b4c0bad35a3.png

推荐:MIT 造出薄如纸的太阳能电池板。

论文 3:A Survey of Deep Learning for Mathematical Reasoning

  • 作者:Pan Lu、 Liang Qiu 等

  • 论文地址:https://arxiv.org/pdf/2212.10535.pdf

摘要:在近期发布的一篇报告中,来自 UCLA 等机构的研究者系统回顾了深度学习在数学推理方面的进展。

具体而言,本文讨论了各种任务和数据集(第 2 节),并研究了神经网络(第 3 节)和预训练语言模型(第 4 节)在数学领域的进展。此外还探讨了大型语言模型的上下文学习在数学推理中的快速发展(第 5 节)。文章进一步分析了现有的基准,发现对多模态和低资源环境的关注较少(第 6.1 节)。基于循证的研究表明,目前的计算能力表征是不充分的,深度学习方法在数学推理方面也是不一致的(第 6.2 节)。随后,作者建议在概括性和鲁棒性、可信推理、从反馈中学习和多模态数学推理方面改进目前的工作(第 7 节)。

推荐:深度学习如何慢慢推开数学推理的门。

论文 4:Muse: Text-To-Image Generation via Masked Generative Transformers

  • 作者:Huiwen Chang 、 Han Zhang 等

  • 论文地址:https://arxiv.org/pdf/2301.00704v1.pdf

摘要:该研究提出了一种使用掩码图像建模方法进行文本到图像合成的新模型,其中的图像解码器架构以来自预训练和 frozen T5-XXL 大型语言模型 (LLM) 编码器的嵌入为条件。

与建立在级联像素空间(pixel-space)扩散模型上的 Imagen (Saharia et al., 2022) 或 Dall-E2 (Ramesh et al., 2022) 相比,Muse 由于使用了离散 token,效率显著提升。与 SOTA 自回归模型 Parti (Yu et al., 2022) 相比,Muse 因使用并行解码而效率更高。

基于在 TPU-v4 上的实验结果,研究者估计 Muse 在推理速度上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,比 Stable Diffusion v1.4 (Rombach et al., 2022) 快 2 倍。研究者认为:Muse 比 Stable Diffusion 推理速度更快是因为 Stable Diffusion v1.4 中使用了扩散模型,在推理时明显需要更多次迭代。

2fdcd67b64bea146c8b8facc8092b0ea.png

模型体系架构概述。

推荐:推理速度比 Stable Diffusion 快 2 倍,生成、修复图像谷歌一个模型搞定。

论文 5:Positive-Incentive Noise

  • 作者:李学龙

  • 论文地址:https://ieeexplore.ieee.org/document/10003114

摘要:在各式各样的科学研究的方方面面中,噪声大量存在,如仪器精度不足导致的仪器误差、人为操作中的失误导致的偏差、极端环境等外界干扰导致的信息失真等。研究者普遍认为噪声通常会对执行的任务产生不良影响,这已成为一个约定俗成的假设。因此,围绕着 “降噪” 这一核心任务产生了大量的研究工作。然而,西北工业大学李学龙教授团队在执行信号探测和处理任务时通过实验观察验证,对这一假设产生了质疑:科学研究中的噪声真的总是有害的吗?

恰如图 1 所示,在一个图像智能分类系统中,对图像加入适量的噪声后再训练,识别准确率反而上升了。这给我们带来一点启发:图像中加入一些噪声,而不是去除,再执行图像分类任务,可能效果会更好。只要噪声对目标的影响远小于噪声对背景的影响,产生 “伤敌(背景噪声)一千,自(目标信号)损八百” 的效果就有意义,因为任务追求的是高信噪比。从本质上来说,面对传统分类问题,在特征后随机加上适度的噪声,相当于升高了特征维度,某种意义上说,类似是给特征增加了一个核函数,实际上完成了一种低维空间到高维空间的映射,使数据更可分,从而提高了分类效果。

0328e7a444f36407d202e53680cb793e.png

图 1 图像识别准确率随图像噪声强度的增大而 “反直觉” 地呈现出 “先增后减” 的关系。

推荐:西工大李学龙教授提出基于任务熵的数学分析框架。

论文 6:ABPN: Adaptive Blend Pyramid Network for Real-Time Local Retouching of Ultra High-Resolution Photo

  • 作者:Biwen Lei 、 Xiefan Guo 等

  • 论文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Lei_ABPN_Adaptive_Blend_Pyramid_Network_for_Real-Time_Local_Retouching_of_CVPR_2022_paper.pdf

摘要:来自达摩院的研究者以实现专业级的智能美肤为出发点,研发了一套高清图像的超精细局部修图算法 ABPN,在超清图像中的美肤与服饰去皱任务中都实现了很好的效果与应用。

36ec4e65c3848128cd5af678f9e3f208.png

如上图所示,网络结构主要由两个部分组成:上下文感知的局部修饰层(LRL)和自适应混合金字塔层(BPL)。其中 LRL 的目的是对降采样后的低分辨率图像进行局部修饰,生成低分辨率的修饰结果图,充分考虑全局的上下文信息以及局部的纹理信息。进一步,BPL 用于将 LRL 中生成的低分辨率结果逐步向上拓展到高分辨率结果。其中,我们设计了一个自适应混合模块(ABM)及其逆向模块(R-ABM),利用中间混合图层 Bi,可实现原图与结果图之间的自适应转换以及向上拓展,展现了强大的可拓展性和细节保真能力。我们在脸部修饰及服饰修饰两个数据集中进行了大量实验,结果表明我们的方法在效果和效率上都大幅度地领先了现有方法。值得一提的是,我们的模型在单卡 P100 上实现了 4K 超高分辨率图像的实时推理。

推荐:一键抹去瑕疵、褶皱。

论文 7:Image-and-Language Understanding from Pixels Only

  • 作者:Michael Tschannen、Basil Mustafa 等

  • 论文地址:https://arxiv.org/pdf/2212.08045.pdf

摘要:开发一个可以处理任何模态或模态组合的单一端到端模型,将是多模态学习的重要一步。本文中,来自谷歌研究院(谷歌大脑团队)、苏黎世的研究者将主要关注图像和文本。

本文将对使用纯基于像素的模型进行文本和图像的多模态学习进行探索。该模型是一个单独的视觉 Transformer,它处理视觉输入或文本,或两者一起,所有都呈现为 RGB 图像。所有模态都使用相同的模型参数,包括低级特征处理;也就是说,不存在特定于模态的初始卷积、tokenization 算法或输入嵌入表。该模型仅用一个任务训练:对比学习,正如 CLIP 和 ALIGN 所推广的那样。因此模型被称作 CLIP-Pixels Only(CLIPPO)。

8259845c84494e1f65ebdeaf07bed7d0.png

推荐:参数减半、与 CLIP 一样好,视觉 Transformer 从像素入手实现图像文本统一。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各 10 篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 NLP 精选论文是:

1. Rethinking with Retrieval: Faithful Large Language Model Inference.  (from Hongming Zhang, Dan Roth)

2. Understanding Political Polarisation using Language Models: A dataset and method.  (from Bhiksha Raj)

3. Towards Table-to-Text Generation with Pretrained Language Model: A Table Structure Understanding and Text Deliberating Approach.  (from Hui Xiong)

4. Examining Political Rhetoric with Epistemic Stance Detection.  (from Brendan O'Connor)

5. Towards Knowledge-Intensive Text-to-SQL Semantic Parsing with Formulaic Knowledge.  (from Min-Yen Kan)

6. Leveraging World Knowledge in Implicit Hate Speech Detection.  (from Jessica Lin)

7. Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers.  (from Furu Wei)

8. EZInterviewer: To Improve Job Interview Performance with Mock Interview Generator.  (from Tao Zhang)

9. Memory Augmented Lookup Dictionary based Language Modeling for Automatic Speech Recognition.  (from Yuxuan Wang)

10. Parameter-Efficient Fine-Tuning Design Spaces.  (from Diyi Yang)

本周 10 篇 CV 精选论文是:

1. CA$^2$T-Net: Category-Agnostic 3D Articulation Transfer from Single Image.  (from Jitendra Malik)

2. Mapping smallholder cashew plantations to inform sustainable tree crop expansion in Benin.  (from Vipin Kumar)

3. Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning.  (from Trevor Darrell)

4. STEPs: Self-Supervised Key Step Extraction from Unlabeled Procedural Videos.  (from Rama Chellappa)

5. Muse: Text-To-Image Generation via Masked Generative Transformers.  (from Ming-Hsuan Yang, Kevin Murphy, William T. Freeman)

6. Understanding Imbalanced Semantic Segmentation Through Neural Collapse.  (from Xiangyu Zhang, Jiaya Jia)

7. Cross Modal Transformer via Coordinates Encoding for 3D Object Dectection.  (from Xiangyu Zhang)

8. Learning Road Scene-level Representations via Semantic Region Prediction.  (from Alan Yuille)

9. Learning by Sorting: Self-supervised Learning with Group Ordering Constraints.  (from Bernt Schiele)

10. AttEntropy: Segmenting Unknown Objects in Complex Scenes using the Spatial Attention Entropy of Semantic Segmentation Transformers.  (from Pascal Fua)

本周 10 篇 ML 精选论文是:

1. Self-organization Preserved Graph Structure Learning with Principle of Relevant Information.  (from Philip S. Yu)

2. Modified Query Expansion Through Generative Adversarial Networks for Information Extraction in E-Commerce.  (from Altan Cakir)

3. Disentangled Explanations of Neural Network Predictions by Finding Relevant Subspaces.  (from Klaus-Robert Müller)

4. L-HYDRA: Multi-Head Physics-Informed Neural Networks.  (from George Em Karniadakis)

5. On Transforming Reinforcement Learning by Transformer: The Development Trajectory.  (from Dacheng Tao)

6. Boosting Neural Networks to Decompile Optimized Binaries.  (from Kai Chen)

7. NeuroExplainer: Fine-Grained Attention Decoding to Uncover Cortical Development Patterns of Preterm Infants.  (from Dinggang Shen)

8. A Theory of Human-Like Few-Shot Learning.  (from Ming Li)

9. Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning.  (from George J. Pappas)

10. Estimating Latent Population Flows from Aggregated Data via Inversing Multi-Marginal Optimal Transport.  (from Hongyuan Zha)

© THE END 

转载请联系本公众号获得授权

886b82e542b4720b5933a0ff8b68e2c5.gif

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

2c74b25a1f5c501da98226990374e942.jpeg

扫码关注

计算机视觉研究院

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

 往期推荐 

🔗

  • 利用TRansformer进行端到端的目标检测及跟踪(附源代码)

  • Sparse R-CNN:稀疏框架,端到端的目标检测(附源码)

  • 利用TRansformer进行端到端的目标检测及跟踪(附源代码)

  • 细粒度特征提取和定位用于目标检测(附论文下载)

  • 特别小的目标检测识别(附论文下载)

  • 目标检测 | 基于统计自适应线性回归的目标尺寸预测

  • 目标检测干货 | 多级特征重复使用大幅度提升检测精度(文末附论文下载)



推荐阅读
  • 探索聚类分析中的K-Means与DBSCAN算法及其应用
    聚类分析是一种用于解决样本或特征分类问题的统计分析方法,也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分,适用于球形分布的数据集;而DBSCAN算法则基于密度进行聚类,能够有效识别任意形状的簇,并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析,本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]
  • OpenAI首席执行官Sam Altman展望:人工智能的未来发展方向与挑战
    OpenAI首席执行官Sam Altman展望:人工智能的未来发展方向与挑战 ... [详细]
  • 每日前端实战:148# 视频教程展示纯 CSS 实现按钮两侧滑入装饰元素的悬停效果
    通过点击页面右侧的“预览”按钮,您可以直接在当前页面查看效果,或点击链接进入全屏预览模式。该视频教程展示了如何使用纯 CSS 实现按钮两侧滑入装饰元素的悬停效果。视频内容具有互动性,观众可以实时调整代码并观察变化。访问以下链接体验完整效果:https://codepen.io/comehope/pen/yRyOZr。 ... [详细]
  • 本文探讨了利用JavaScript实现集合的对称差集算法的方法。该算法旨在处理多个数组作为输入参数,同时保留每个数组中元素的原始顺序。算法不会移除单个数组内的重复元素,但会删除在不同数组之间出现的重复项。通过这种方式,能够有效地计算出多个数组的对称差集。 ... [详细]
  • 《Intel IA-32 架构软件开发人员手册详尽指南》提供了详尽的 IA-32 架构技术文档,涵盖指令集、系统编程和硬件接口等内容,为软件开发人员提供全面的技术支持和参考。该手册不仅包括详细的架构说明,还提供了丰富的编程示例和最佳实践,帮助开发人员更好地理解和应用 IA-32 架构。 ... [详细]
  • 本文探讨了基于点集估算图像区域的Alpha形状算法在Python中的应用。通过改进传统的Delaunay三角剖分方法,该算法能够生成更加灵活和精确的形状轮廓,避免了单纯使用Delaunay三角剖分时可能出现的过大三角形问题。这种“模糊Delaunay三角剖分”技术不仅提高了形状的准确性,还增强了对复杂图像区域的适应能力。 ... [详细]
  • 从2019年AI顶级会议最佳论文,探索深度学习的理论根基与前沿进展 ... [详细]
  • 经过半年的精心整理,我们汇总了当前市场上最全面的Android面试题解析,为移动开发人员的晋升和加薪提供了宝贵的参考资料。本书详细涵盖了从基础到高级的各类面试题,帮助读者全面提升技术实力和面试表现。章节目录包括:- 第一章:Android基础面试题- 第二章:... ... [详细]
  • 本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog,包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]
  • 字节流(InputStream和OutputStream),字节流读写文件,字节流的缓冲区,字节缓冲流
    字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream,所有的输出流都继承子OutputStreamInput ... [详细]
  • 本文介绍了如何在iOS平台上使用GLSL着色器将YV12格式的视频帧数据转换为RGB格式,并展示了转换后的图像效果。通过详细的技术实现步骤和代码示例,读者可以轻松掌握这一过程,适用于需要进行视频处理的应用开发。 ... [详细]
  • 通过使用CIFAR-10数据集,本文详细介绍了如何快速掌握Mixup数据增强技术,并展示了该方法在图像分类任务中的显著效果。实验结果表明,Mixup能够有效提高模型的泛化能力和分类精度,为图像识别领域的研究提供了有价值的参考。 ... [详细]
  • 本文探讨了BERT模型在自然语言处理领域的应用与实践。详细介绍了Transformers库(曾用名pytorch-transformers和pytorch-pretrained-bert)的使用方法,涵盖了从模型加载到微调的各个环节。此外,还分析了BERT在文本分类、情感分析和命名实体识别等任务中的性能表现,并讨论了其在实际项目中的优势和局限性。 ... [详细]
  • Android 图像色彩处理技术详解
    本文详细探讨了 Android 平台上的图像色彩处理技术,重点介绍了如何通过模仿美图秀秀的交互方式,利用 SeekBar 实现对图片颜色的精细调整。文章展示了具体的布局设计和代码实现,帮助开发者更好地理解和应用图像处理技术。 ... [详细]
  • 本文介绍了如何通过掌握 IScroll 技巧来实现流畅的上拉加载和下拉刷新功能。首先,需要按正确的顺序引入相关文件:1. Zepto;2. iScroll.js;3. scroll-probe.js。此外,还提供了完整的代码示例,可在 GitHub 仓库中查看。通过这些步骤,开发者可以轻松实现高效、流畅的滚动效果,提升用户体验。 ... [详细]
author-avatar
myq9395014
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有